Google entraine une IA dans l’univers des jeux vidéo

Qu'ils l'envoient dans le metavers

Publié dans

15/03/2024 5 minutes

Crédits : DeepMind

DeepMind, le laboratoire de recherche de Google, a créé une IA capable de suivre des instructions dans un jeu vidéo. L'idée, ici, n'est pas de proposer une IA capable de réussir un jeu le plus rapidement ou le mieux possible, mais de créer un robot capable d'adapter son comportement à l'univers dans lequel il évolue.

SIMA, c'est le nom de cette nouvelle IA de Google, pour Scalable Instructable Multiworld Agent. Celle-ci est capable de « suivre des instructions en langage naturel pour effectuer des tâches dans divers contextes de jeux vidéo », explique DeepMind.

Le laboratoire de Google change sa façon d'utiliser les jeux pour améliorer ses IA. L'idée n'est plus d'essayer de battre des humains à des jeux comme les échecs, le Go ou StarCraft II. Ça, c'est possible depuis quelques années déjà.

Exit le but du jeu à atteindre. Maintenant, les chercheurs de DeepMind s'appuient sur les jeux vidéo comme bacs à sable pour travailler sur la mise en place d'intelligences artificielles qui pourraient s'adapter aux mondes dans lesquels elles évoluent tout en suivant les instructions d'un humain.

Derrière, leur envie est de créer une plateforme de recherche qui permette de travailler sur la connexion entre les grands modèles de langage (popularisés par ChatGPT) et le « monde incarné que nous habitons ».

Le jeu vidéo comme terrain d'expérimentation

Avec SIMA, « nous nous concentrons sur les jeux qui ressemblent le plus à une incarnation physique en 3D, en particulier les jeux où le joueur interagit avec un monde en 3D à partir d'une vue à la première personne ou d'une vue au-dessus de l'épaule », expliquent les chercheurs de Google dans leur « rapport technique » [PDF]. Ce n’est pas vraiment un article scientifique, bien qu'il y ressemble dans la forme.

Pour mettre en place SIMA, DeepMind s'est associé avec huit studios de jeux vidéos pour que l'« agent » puisse apprendre à évoluer dans divers univers de jeu. Ils ont pu accéder à neuf univers virtuels de jeux vidéo commerciaux dont, par exemple, celui de No Man's Sky de Hello Games, Teardown de Tuxedo Labs ou G oat Simulator 3 d’Epic. Pour compléter le panel, ils ont aussi utilisé quatre environnements de recherche.

Tous ces jeux permettent aux chercheurs de proposer des mondes différents dans lesquels leur IA pourra évoluer. Mais, surtout, ces environnements sont asynchrones : ils ne s'arrêtent pas pour attendre le calcul d'une action.

Et SIMA n'a aucune API spéciale pour accéder au jeu, elle utilise les mêmes commandes de clavier et de souris que les humains. Elle n'a pas d'information privilégiée sur le monde qu'elle parcourt, les seules informations proviennent de l'image.

« Clonage comportemental »

L'approche des chercheurs de DeepMind pour que SIMA fasse des actions dans ces environnements est de l'entrainer en faisant ce qu'ils appellent du « clonage comportemental », c'est-à-dire de l'apprentissage supervisé, de la correspondance entre ce qu'il se passe dans l'univers du jeu et les actions décidées par des humains lorsqu'ils jouent.

Ils ont donc payé des travailleurs de la donnée (les chercheurs ne fournissent aucun détail sur le prix payé pour les tâches effectuées) pour que ceux-ci évoluent dans les jeux en faisant certaines actions. Ils devaient ensuite annoter les vidéos qui en résultaient avec les instructions qui correspondent à ces actions. Par exemple, dès que leur personnage lâchait un objet, le travailleur devait étiqueter le moment de la vidéo avec « drop object ».

D'autres créations de données ont consisté à un travail en binôme dans lequel l'un donnait des instructions suivant des scénarios pré-établis pendant que l'autre parcourait le monde virtuel d'un jeu. Ceci a permis à DeepMind d'étiqueter 600 « compétences de base » qui prennent moins de 10 secondes comme « tourner à gauche », « ouvrir la carte » ou « monter à l'échelle ». Elles sont décomposées comme sur le schéma ci-dessous :

Espoir d'actions plus complexes

Cet entrainement permet de mettre en place les modèles de vision de SIMA : l'un permet de faire une cartographie linguistique précise des images et l'autre fait des prédictions sur ce qu'il se passera ensuite à l'écran. DeepMind utilise aussi d'autres modèles de vision déjà développés auparavant, ainsi qu'un système permettant de gérer les actions au clavier et à la souris.

Dans son fonctionnement actuel, SIMA arrive à suivre, dans le jeu vidéo dans lequel on l'a propulsé, des instructions simples. Les chercheurs de DeepMind ont observé que, entrainée sur tous les jeux, SIMA est meilleur que si elle a été entrainée sur un seul.

De même, dans un environnement 1, un agent SIMA ayant été entrainé uniquement pour celui-ci sera moins bon qu'un autre entraîné dans les environnements 2, 3, 4, 5, 6 et 7.

DeepMind espère pouvoir ensuite lui faire élaborer des actions plus complexes comme « trouver des ressources et construire un camp ».

Commentaires (6)

Trit’ Abonné

Le 15/03/2024 à 14h 24

« Son système apprend à apprendre »

Ils vont l’appeler Joshua ?

Mais attention : ça commence comme un simple jeu, et ça peut finir en guerre mondiale… 😢

Modifié le 15/03/2024 à 14h27

Historique des modifications :

Posté le 15/03/2024 à 14h24

« Son système apprend à apprendre »

Ils vont l’appeler Joshua?useskin=vector) ?

Mais attention : ça commence comme un simple jeu, et ça peut finir en guerre mondiale… 😢

« Son système apprend à apprendre »

Ils vont l’appeler Joshua) ?

Mais attention : ça commence comme un simple jeu, et ça peut finir en guerre mondiale… 😢

Breizhad Abonné

Quand ce sera au point, ils l'entraineront dans un fps, puis un simulateur de gestion d'usine, et Skynet sera prêt !

Sceptique Abonné

Le 15/03/2024 à 14h 28

#2.1

Je vois qu'il y a déjà satisfactory dedans donc...

Donkusei Abonné

Le 16/03/2024 à 17h 34

On écrit "jeux vidéo" sans s à vidéos. ;)

Mihashi Abonné

Le 18/03/2024 à 11h 22

#3.1

Pas forcément, depuis 1990 😅.

Martin Clavey Équipe

Le 19/03/2024 à 08h 21

#3.2

Effectivement. Merci :)

Google entraine une IA dans l’univers des jeux vidéo

Qu'ils l'envoient dans le metavers

Le jeu vidéo comme terrain d'expérimentation

« Clonage comportemental »

Espoir d'actions plus complexes

Tiens, en parlant de ça :

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Sommaire de l'article

Introduction

Le jeu vidéo comme terrain d'expérimentation

« Clonage comportemental »

Espoir d’actions plus complexes

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (6)

Historique des modifications :